Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
Recent video+language datasets cover domains where the interaction is highly structured, such as instructional videos, or where the interaction is scripted, such as TV shows. Both of these properties can lead to spurious cues to be exploited by models rather than learning to ground language. In this paper, we present GrOunded footbAlL commentaries (GOAL), a novel dataset of football (or `soccer') highlights videos with transcribed live commentaries in English. As the course of a game is unpredictable, so are commentaries, which makes them a unique resource to investigate dynamic language grounding. We also provide state-of-the-art baselines for the following tasks: frame reordering, moment retrieval, live commentary retrieval and play-by-play live commentary generation. Results show that SOTA models perform reasonably well in most tasks. We discuss the implications of these results and suggest new tasks for which GOAL can be used. Our codebase is available at: https://gitlab.com/grounded-sport-convai/goal-baselines.
translated by 谷歌翻译
对抗性鲁棒性评估了机器学习模型的最坏情况性能方案,以确保其安全性和可靠性。这项研究是第一个研究视觉接地对话模型对文本攻击的鲁棒性的一项。这些攻击代表了最坏的情况,其中输入问题包含一个同义词,该代名词导致先前正确的模型返回错误的答案。使用这种情况,我们首先旨在了解多模式输入组件如何促进模型鲁棒性。我们的结果表明,编码对话框历史记录的模型更强大,并且在对历史记录发动攻击时,模型预测变得更加不确定。这与先前的工作相反,后者发现对话记录在此任务上的模型性能可以忽略不计。我们还评估了如何生成对抗性测试示例,这些测试示例成功地欺骗了模型,但仍未被用户/软件设计人员发现。我们发现文本以及视觉上下文对于生成合理的最坏情况很重要。
translated by 谷歌翻译
随着深度机器学习对现实生活应用的扩散,该技术的一种特殊属性引起了人们的注意:稳健性神经网络臭名昭著地表现出低的鲁棒性,并且对小输入扰动非常敏感。最近,已经提出了许多用于验证网络鲁棒性的一般特性的方法,但是它们主要用于计算机视觉。在本文中,我们提出了基于较大感兴趣区域的自然语言理解分类的验证规范,我们讨论了此类任务的挑战。我们观察到,尽管数据几乎是线性可分离的,但验证者努力输出积极的结果,我们解释了问题和含义。
translated by 谷歌翻译
当前的解释应用于音乐数据的深度学习系统的方法可在低级功能空间中,例如,通过突出钢琴卷中的频谱图或时机垃圾箱中的潜在相关时间频率箱。这可能很难理解,尤其是对于没有技术知识的音乐学家而言。为了解决这个问题,我们专注于基于高级音乐概念的更具人为友好的解释。我们的研究针对经过训练的系统(事后解释)并探讨了两种方法:一种受监督的方法,用户可以定义音乐概念并测试它是否与系统相关;以及无监督的内容,其中包含相关概念的音乐摘录将自动选择并给予用户进行解释。我们在现有的符号作曲家分类系统上展示了这两种技术,展示其潜力并突出其内在局限性。
translated by 谷歌翻译
串联连接的机器人是希望在大规模灾害中的搜索和救援等限制空间中执行任务的候选人。这种机器人通常是韧带,我们假设肢体的添加可以改善移动性。然而,在设计和控制这种装置方面的挑战在于以提高移动性的方式协调高维冗余模块。在这里,我们开发了一个控制串联连接的多腿机器人的一般框架。具体地,我们结合了两种方法来构建一般的形状控制方案,其可以为各种机器人形态的有效运动提供自变形(“Gaits”)的基线模式。首先,我们从维度降低和生物步态分类方案中获取灵感,以产生身体变形和脚提升/降低的循环模式,其促进了任意基板接触图案的产生。其次,我们使用几何力学方法来促进识别这些起伏的最佳相位,以最大化速度和/或稳定性。我们的方案允许在扁平摩擦地形上的多腿机器人机车上的有效Gaits开发有多种数量的四肢(4,6,16,甚至0四肢)和身体致动能力(包括在Limbless设备上的侧壁Gaits)。通过适当协调身体波动和腿部放置,我们的框架结合了Limbless机器人(模块化)和腿机器人(移动性)的优势。我们预计我们的框架可以提供一般的控制方案,以便快速部署一般的多腿机器人,铺平往达在现实条件下遍历复杂环境的机器的方式。
translated by 谷歌翻译